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上 节 课 我 们 主要 介绍 了 Soft-Margin SVM， 即 如 果 人 允许 有 分 类 错误 的 点 存在 ， 那 么 在 
原来 的 Hard-Margin SVM 中 添加 新 的 惩罚 因子 C， 修 正 原来 的 公式 ， 得 到 新 的 ow, 值 。 
最 终 的 到 的 ay, 有 个 上 界 ， 上 界 就 是 C。 Soft-Margin SVM 权衡 了 large-margin 和 error 
point 之 前 的 关系 ， 目 的 是 在 尽 可 能 犯 更 少 错误 的 前 提 下 ， 得 到 最 大 分 类 边界 。 本 节 课 
将 把 Soft-Margin SVM 和 我 们 之 前 介绍 的 Logistic Regression 联 系 起 来 ， 研 究 如 何 使 用 
kernel 技 巧 来 解决 更 多 的 问题 。 


Soft-Margin SVM as Regularized Model 


先 复习 一 下 我 们 已 经 介绍 过 的 内 容 ， 我 们 最 早 开 始 讲 了 Hard-Margin Primal 的 数学 表 
达 式 ， 然 后 推导 了 Hard-Margin Dual 形 式 。 后 来 ， 为 了 允许 有 错误 点 的 存在 (或 者 
noise) ， 也 为 了 避免 模型 过 于 复杂 化 ， 造 成 过 拟 合 ,我 们 建 六 了 Soft-Margin Primal 
的 数学 表达 式 ， 并 引入 了 新 的 参数 C 作 为 权衡 因子 ， 然 后 也 推导 了 其 Soft-Margin Dual 
形式 。 因 为 Soft-Margin Dual SVM 更 加 灵活 、 便 于 调整 参数 ， 所 以 在 实际 应 用 中 ， 使 
用 Soft-Margin Dual SVM 来 解决 分 类 问题 的 情况 更 多 一 些 。 
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Soft-Margin Dual SVM 有 两 个 应 用 非常 广泛 的 工具 包 ， 分 别 是 Libsvm 和 Liblinear。 
Libsvm 和 Liblinear 都 是 国立 台湾 大 学 的 Chih-Jen Lin 博 士 开 发 的 ，Chih-Jen Lin 的 个 人 
网 站 为 : Welcome to Chih-Jen Lin's Home Page 


下 面 我 们 再 来 回顾 一 下 Soft-Margin SVM 的 主要 内 容 。 我 们 的 出 友 点 是 用 ,来 表示 
margin violation， 即 犯错 值 的 大 小 ， 没 有 犯错 对 应 的 6 二 0。 然 后 将 有 条 件 问题 转化 
为 对 偶 dual 形 式 ， 使 用 QP 来 得 到 最 佳 化 的 解 。 


从 另外 一 个 角度 来 看 ，é&, 描 述 的 是 点 (2%, yn ) 距离 y (Ww zn 十 0) 二 1 的 边界 有 多 
远 。 第 一 种 情况 是 violating margin， 即 不 满足 yn (w” zn 十 5) > 1。 那 么 6 可 表示 
为 : 6 =1— yn (wi zn 十 5b) > 0。 第 二 种 情况 是 not violating margin， 即 点 
(Zn, yn ) 在 边界 之 外 ， 满 足 yn (wz 十 0) > 1 的 条 件 ， 此 时 纪 二 0。 我 们 可 以 将 
两 种 情况 整合 到 一 个 表达 式 中 ， 对 任意 点 : 


én = maz(l — yn (wT zn 十 5b),0) 


上 式 表明 ， 如 果 有 voilating margin， 则 1 一 yn(w zn ++b)>0, 
&n = 1 一 Yn (Ww zn 十 0); 如 果 not violating margin, 则 1 一 yn(wizn +b)<0 
，& 二 0。 整 合 之 后 ， 我 们 可 以 把 Soft-Margin SVM 的 最 小 化 问题 写成 如 下 形式 : 
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on any (bw), cn = margin violation = max(1 — yn(W’zn + b), 0) 
。 (Xn, yn) violating margin: sr = 1 — yn(W zn + b) 
® (Xn,yn) not violating margin: £» = 0 








‘unconstrained’ form of soft-margin SVM: 
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为 什么 要 将 把 Soft-Margin SVM 转 换 为 这 种 unconstrained form 呢 ? 我 们 再 来 看 一 下 转 
换 后 的 形式 ， 其 中 包含 两 项 ， 第 一 项 是 w 的 内 积 ， 第 二 项 关于 y 和 w，b，z 的 表达 式 ， 
似乎 有 点 像 一 种 错误 估计 e?r， 则 类 似 这 样 的 形式 : 


1 
min, Fw 十 p33 err 


看 到 这 样 的 形式 我 们 应 该 很 熟悉 ， 因 为 之 前 介绍 的 L2 Regularization 中 最 优化 问题 的 
表达 式 跟 这 个 是 类 似 的 : 
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这 里 提 一 下 ， 既 然 unconstrained form SVM 与 L2 Regularization 的 形式 是 一 致 的 ， 而 
且 L2 Regularization 的 解法 我 们 之 前 也 介绍 过 ， 那 么 为 什么 不 直接 利用 这 种 方法 来 解 
决 unconstrained form SVM 的 问题 呢 ” 有 两 个 原因 。 一 个 是 这 种 无 条 件 的 最 优化 问题 
无 法 通过 QP 解 决 ， 即 对 偶 推导 和 kernel 都 无 法 使 用 ; 另 一 个 是 这 种 形式 中 包含 的 
max() 项 可 能 造成 函数 并 不 是 处 处 可 导 ， 这 种 情况 难以 用 微分 方法 解决 。 

我 们 在 第 一 节 课 中 就 介绍 过 Hard-Margin SVM 与 Regularization Model 是 有 关系 的 。 
Regularization 的 目标 是 最 小 化 瓦 ，， 条 件 是 wz ww < C， 而 Hard-Margin SVM 的 目标 
是 最 小 化 w 7w， 条 件 是 ;i, 二 0， 即 它们 的 最 小 化 目标 和 限制 条 件 是 相互 对 调 的 。 对 
于 L2 Regularization 来 说 ， 条 件 和 最 优化 问题 结合 起 来 ， 整 体形 式 写 成 : 


入 
NY + Ein, 


而 对 于 Soft-Margin SVM 来 说 ， 条 件 和 最 优化 问题 结合 起 来 ， 整 体形 式 写 成 : 
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regularization by constraint ww<C 


hard-margin SVM Ein = 0 [and more] 


L2 regularization 


soft-margin SVM 2w w+ CNEin 





通过 对 比 ， 我 们 发 现 L2 Regularization 和 Soft-Margin SVM 的 形式 是 相同 的 ， 两 个 式 子 
分 别 包 含 了 参数 和 和 C。Soft-Margin SVM 中 的 large margin 对 应 着 L2 Regularization 中 
的 short w， 也 就 是 都 让 hyperplanes 更 简单 一 些 。 我 们 使 用 特别 的 ef7 来 代表 可 以 容忍 
犯错 误 的 程度 ， 即 soft margin。L2 Regularization 中 的 和 和 Soft-Margin SVM 中 的 C 也 
是 相互 对 应 的 ， 和 越 大 ，w 会 越 小 ，Regularization 的 程度 就 越 大 ; C 越 小 ， 瓦 im 会 越 
大 ， 相 应 的 margin 就 越 大 。 所 以 说 增 大 C， 或 者 减 小 入 ， 效 果 是 一 致 的 ，Large-Margin 
等 同 于 Regularization， 都 起 到 了 防止 过 拟 合 的 作用 。 


large margin < 一 fewer hyperplanes < 一 L2 regularization of short w 
soft margin <—> special err 


larger C or C < 全 smaller 入 < 一 less regularization 


建立 了 Regularization 和 Soft-Margin SVM 的 关系 ， 接 下 来 我 们 将 党 试看 看 是 否 能 把 
SVM 作为 一 个 regularized 的 模型 进行 扩展 ， 来 解决 其 它 一 些 问 题 。 


SVM versus Logistic Regression 


上 一 小 节 ， 我 们 已 经 把 Soft-Margin SVM 转换 成 无 条 件 的 形式 : 
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上 式 中 第 二 项 的 maz(1 一 yn (w7 zn 十 b), 0) 信 设置 为 eir。 下 面 我 们 来 看 看 er 与 
之 前 再 二 元 分 类 中 介绍 过 的 erroy1 有 什么 关系 。 


对 于 er70y1， 它 的 linear score s 三 wi zn + b, 当 ys > 0 时 ， erro/i 二 0; 当 

ys < 0 时 ，err0y1 二 1， 是 阶梯 状 。 如 下 图 所 示 。 而 对 于 ef?r， 当 ys > 0 时 ， 
er70/1 三 0; 当 ys < 0 时 ，erroj1 二 1 一 Ys， 旺 折线 状 。 如 下 图 所 示 ， 通常 把 
ef?7 sm 称 为 hinge error measure。 比 较 两 条 error 曲 线 ， 我 们 发 现 ef?7 60, 
始终 在 erro/i 的 上 面 ， 则 efrsom 可 作为 erro/i 的 上 界 。 所 以 ， 可 以 使 用 efrswm 来 代 
蔡 erro/l ， 解 决 二 元 线性 分 类 问题 ， 而 且 efrswm 是 一 个 凸 函 数 ， 使 它 在 最 佳 化 问题 中 
有 更 好 的 性 质 。 


linear score s =w’'zn+b 


® erro/1(s,y)= [ys < o] 

® ertrsvu(S,y) = max(1 — ys, 0): 
upper bound of erro /1 
—often called hinge error measure 
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arrsvw: algorithmic error measure 

by convex upper bound of erro/i | 
紧 接 着 ， 我 们 再 来 看 一 下 logistic regression 中 的 error function。 罗 辑 回 归 中 ， 
ETTsce 一 1ogz (1 十 eZD( 一 5))， 当 ys=0 时 ，ey7sce 三 1。 它 的 err 曲 线 如 下 所 示 。 


linear score Ss =w’'zn+b 6 一 0/1 


—svr 
—scaled ce 


四 erro/1(s, y) = [ys SS 0] 

e ErITsvv(S,y) = max(1 — ys, 0): 
upper bound of erro/1 

® errsce(S,y) = 10g,(1 十 exp( 一 ys)): 
another upper bound of erro/1 Used in -3 =1 站 2 3 
logistic regression 








一 YS ertsvm(S, y) = 
ll (In 2) * errsce(S, y) 





很 明显 ，errsce 也 是 err0j1 的 上 界 ， 而 er7sce 与 efrsvm 也 是 比较 相近 的 。 因 为 当 ys 趋 
向 正 无 穷 大 的 时 候 ，e77sce 和 ef7gwm, 都 趋向 于 零 ; 当 ys 趋 向 负 无 穷 大 的 时 候 ，er7gce 
和 e?7swm 都 趋向 于 正 无 容 大 。 正 因为 二 者 的 这 种 相似 性 ， 我 们 可 以 把 SVM 看 成 是 L2- 


regularized logistic regression。 


总 结 一 下 ， 我 们 已 经 介绍 过 几 种 Binary Classification 的 Linear Models， 包 括 PLA， 
Logistic Regression 和 Soft-Margin SVM。PLA 是 相对 简单 的 一 个 模型 ， 对 应 的 是 
e770/1 ， 通 过 不 断 修正 错误 的 点 来 获得 最 佳 分 类 线 。 它 的 优点 是 简单 快速 ， 缺 点 是 只 
对 线性 可 分 的 情况 有 用 ， 线 性 不 可 分 的 情况 需要 用 到 pocket 算 法 。Logistic 
Regression 对 应 的 是 er7rsce ， 通 常 使 用 GD/SGD 算 法 求解 最 佳 分 类 线 。 它 的 优点 是 凸 
函数 er7sce 便 于 最 优化 求解 ， 而 且 有 regularization 作 为 避免 过 拟 合 的 保证 ; 缺点 是 
er7sce 作 为 er7o/1 的 上 界 ， 当 ys 很 小 ( 负 值 ) 时 ， 上 界 变 得 更 宽松 ， 不 利于 最 优化 求 
解 。Soft-Margin SVM 对 应 的 是 ef swm,， 通 常 使 用 QP 求解 最 佳 分 类 线 。 它 的 优点 和 
Logistic Regression 一 样 ， 凸 优化 间 题 计算 简单 而 且 分 类 线 比 较 “ 粗 壮 "一 些 ; 缺点 也 和 
Logistic Regression 一 样 ， 当 ys 很 小 ( 负 值 ) 时 ， 上 界 变 得 过 于 宽松 。 其 实 ，Logistic 
Regression 和 Soft-Margin SVM 都 是 在 最 佳 化 er70 /1 的 上 界 而 已 。 
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至 此 ， 可 以 看 出 ， 求 解 regularized logistic regression 的 问题 等 同 于 求解 soft-margin 
SVM 的 问题 。 反 过 来 ， 如 果 我 们 求解 了 一 个 soft-margin SVM 的 问题 ， 那 这 个 解 能 否 
直接 为 regularized logistic regression 所 用 ?来 预测 结果 是 正 类 的 几率 是 多 少 ， 就 像 
regularized logistic regression 做 的 一 样 。 我 们 下 一 小 节 将 来 解答 这 个 问题 。 


SVM for Soft Binary Classification 


接 下 来 ， 我 们 探讨 如 何 将 SVM 的 结果 应 用 在 Soft Binary Classification 中 ， 得 到 是 正 类 
的 概率 值 。 


第 一 种 简单 的 方法 是 先 得 到 SVM 的 解 (bswm, wswm )， 然 后 直接 代入 到 logistic 
regression 中 ， 得 到 g(z) 二 0(wlm 十 bswm )。 这 种 方法 直接 使 用 了 SVM 和 logistic 
regression 的 相似 性 ， 一 般 情 况 下 表现 还 不 错 。 但 是 ， 这 种 形式 过 于 简单 ， 与 |ogistic 
regression 的 关联 不 大 ， 没 有 使 用 到 logistic regression 中 好 的 性 质 和 方法 。 


第 二 种 简单 的 方法 是 同样 先 得 到 SVM 的 解 (bsvm ,Wsvm )， 然 后 把 (bswm ,Wsvm ) 作 为 
logistic regression 的 初始 值 ， 再 进行 迭代 训练 修正 ， 速 度 比较 快 ， 最 后 ， 将 得 到 的 b 和 
w 代 入 到 g(x) 中 。 这 种 做 法 有 点 显得 多 此 一 举 ， 因 为 并 没有 比 直接 使 用 logistic 


regression 快 捷 多 少 。 
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@ run SVM and get @ run SVM and get 
(bsvw， Wsvw) (bsvw， Wsvw) 
@ return @ run LogReg with 
9(X) = b(wdvwx 十 bsvw) (bsvw,wWsvw) as Wo 
@ return LogReg solution as 
9(X) 
e。 direct use of similarity se。 not really ‘easier than 
一 Works reasonably well original LogReg 
。 no LogReg flavor 。 SVM flavor (kernel?) lost 





这 两 种 方法 都 没有 融合 SVM 和 logistic regression 各 自 的 优势 ， 下 面 构造 一 个 模型 ， 融 
合 了 二 者 的 优势 。 构 造 的 模型 g(x) 表 达 式 为 : 


g(z) = 0(A.: (whm E(x) + bsvm) + B) 


与 上 述 第 一 种 简单 方法 不 同 ， 我 们 额外 增加 了 放 缩 因子 A 和 平移 因子 B。 首 先 利用 SVM 
的 解 (bswm ,wswm ) 来 构造 这 个 模型 ， 放 缩 因子 A 和 平移 因子 B 是 待定 系数 。 然 后 再 用 通 
用 的 logistic regression 优 化 算法 ， 通 过 迭代 优化 ， 得 到 最 终 的 A 和 B。 一 般 来 说 ， 如 果 
(bsvm, Wsvm ) 较 为 合理 的 话 ， 满 足 A>0 目 B 守 0。 


9(X) 2 0(A (wsw 中 (X) i bsvu) B) 


e。 SVM flavor: fix hyperplane direction by wsvw 一 kernel applies 


。 LogReg flavor: fine-tune hyperplane to match maximum 
likelihood by scaling (A) and shifting (B) 


es often A > 0 if Wsyu reasonably good 
es often B ~ 0 if bevm reasonably good 


那么 ， 新 的 logistic regression 表 达 式 为 : 


new LogReg Problem: 


N 
1 
mn 斑 >》 log | 1+exp -yn(A . (wsvw 申 (xn) + bsvw ) 十 B) 
ee 中 svw(Xxn) 


这 个 表达 式 看 上 去 很 复杂 ， 其 实 其 中 的 (bswm, WwWsom ) 已 经 在 SVM 中 解 出 来 了 ， 实 际 上 
的 未 知 参数 只 有 A 和 B 两 个 。 归 纳 一 下 ， 这 种 Probabilistic SVM 的 做 法 分 为 三 个 步 又: 





Platts Model of Probabilistic SVM for Soft Binary Classification 


@ run SVM on D to get (bsvm, Wsvm ) [or the equivalent a], and 
transform D to z’ = wd 中 (Xn) + bsvm 


@ run LogReg on {(z’, yn)}\_, to get (A., B) 


©@ return g(x) = 0(A.: (wi ®(X) + bsevu) + B) 


这 种 soft binary classifier 方 法 得 到 的 结果 跟 直 接 使 用 SVM classifier 得 到 的 结果 可 能 不 
一 样 ， 这 是 因为 我 们 引入 了 系数 A 和 B。 一 般 来 说，soft binary classifier 效 果 更 好 。 至 
于 logistic regression 的 解法 ， 可 以 选择 GD、SGD 等 等 。 


Kernel Logistic Regression 


上 一 小 节 我 们 介绍 的 是 通过 kernel SVM 在 z 空 间 中 求 得 logistic regression 的 近似 解 。 
如 果 我 们 希望 直接 在 z 空 间 中 直接 求解 logistic regression， 通 过 引入 kernel， 来 解决 最 
优化 问题 ， 又 该 怎么 做 呢 ? SVM 中 使 用 kernel， 转 化 为 QP 问题 ， 进 行 求解 ， 但 是 
logistic regression 却 不 是 个 QP 问题 ， 看 似 好 像 没 有 办 法 利用 kerne| 来 解决 。 


我 们 先 来 看 看 之 前 介绍 的 kernel trick 为 什么 会 work，kernel trick 就 是 把 z 空 间 的 内 积 转 
换 到 x 空 间 中 比较 容易 计算 的 函数 。 如 果 w 可 以 表示 为 z 的 线性 组 合 ， 即 

us 二 并 _ Bn 2 的 形式 ， 那 么 乘积 项 

wTz 二 ni Bn22z 二 71 BnKK(zxn,2)， 即 其 中 包含 了 z 的 内 积 。 也 就 是 w 可 
以 表示 为 z 的 线性 组 合 是 kernel trick 可 以 work 的 关键 。 


我 们 之 前 介绍 过 SVM、PLA 包 扩 logistic regression 都 可 以 表示 成 z 的 线性 组 合 ， 这 也 提 
供 了 一 种 可 能 ， 就 是 将 kernel 应 用 到 这 些 问题 中 去 ， 简 化 z 空 间 的 计算 难度 。 







LogReg by SGD 










N N N 
Wasvw 一 》 (anyn)zn WpLa 三 》 (anyn)zn WiLocaEG = >》_ (anyn)zn 
n=1 n=1 n=1 
an from dual an by # mistake an by total SGD 
solutions corrections moves 





dd 





有 这 样 一 个 理论 ， 对 于 L2-regularized linear model， 如 果 它 的 最 小 化 问题 形式 为 如 下 
的 话 ， 那 么 最 优 解 w; 二 ”1 Bnzn。 


claim: for any L2-regularized linear model 


N 
二 
min NW w+ NZ "mw zn) 


optimal w, = D1 Bnzn. 


下 面 给 出 简单 的 证 明 ， 假 如 最 优 解 w 二 wl 十 w1。 其 中 ，w| 和 w | 分 别 是 平行 z 空 
间 和 垂直 z 空 间 的 部 分 。 我 们 需要 证 明 的 是 ww 三 0。 利 用 反 证 法 ,假如 w1 关 0， 考 
虑 w, 与 w| 的 比较 。 第 一 步 先 比较 最 小 化 问题 的 第 二 项 : 

erT(2 wr zn) = err(g (WI + WL) 2n = err (Yn, wi zn), Pp 第 二 项 是 相等 
的 。 然 后 第 二 步 比较 第 一 项 : wl ws 一 wi wl 十 2w wl 十 WU wl > wi wl ， 即 
Wx 对 应 的 L2-regularized linear model 值 要 比 wj| 大 ， 这 就 说 明 w 并 不 是 最 优 解 ， 从 而 
证 明 w | 必然 等 于 零 ， 即 ws = 人 | Bn 一 定 成 立 ，w, 一 定 可 以 写成 z 的 线性 组 合 
形式 。 


s let optimal W, = WI 十 Wi, where wl € span(zn) & WwW 上 span(zn) 
一 Wantw, =0 
s what if not? Consider wl 


» of same err as wy: err(yn, W/Zn) = err(yn, (WI| 十 wi)7zn) 
» of smaller regularizer as WwW.: 
WIW. =WIW) +2w Wi +WwIw: > wiw 
一 w| more optimal’ than w: (contradiction!) 


经 过 证 明和 分 析 ， 我 们 得 到 了 结论 是 任何 L2-regularized linear model 都 可 以 使 用 


kernel 来 解决 。 


现在 ， 我 们 来 看 看 如 何 把 kernel 应 用 在 L2-regularized logistic regression 上 。 上 面 我 们 
已 经 证 明了 ,一 定 可 以 写成 z 的 线性 组 合 形式 ， 即 ww, = 并 Y_，p, z。 那 么 我 们 就 
无 需 一 定 求 出 w ， 而 只 要 求 出 其 中 的 i, 就行 了 。 怎 么 求 呢 ? 直接 将 

Wx = bp Bn zn 代入 到 L2-regularized logistic regression 最 小 化 问题 中 ， 得 到 : 


solving L2-regularized logistic regression 


min ww 二 = > (1 + exp (~yow'zn) ) 


m=1 


yields optimal solution w, = YN, Bnzn 





with out loss of generality, can solve for optimal 3 instead of w 
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ER AN Ge 1 
本 N 》 > BnBmK (Xn, Xm) 十 N log ( 十 exp (- yn 》 Bm (Xm, 加 ) 


n=1 m=1 m=1 


一 how? GD/SGD/... for unconstrained optimization 


A 





上 式 中 ， 所 有 的 w 项 都 换 成 Bn 来 表示 了 ， 变 成 了 没有 条 件 限制 的 最 优化 问题 。 我 们 把 
这 种 问题 称 为 kernel logistic regression， 即 引入 kernel， 将 求 w 的 问题 转换 为 求 B;, 的 


问题 。 


从 另外 一 个 角度 来 看 Kernel Logistic Regression (KLR) : 


N WN ] N N | 
min 六 和 BnBmK (Xn, Xm) 十 N 2 log ( 十 exp (- yn 本 


上 式 中 log 项 里 的 》，_， pv KK (xm, zn ) 可 以 看 成 是 变量 6 和 天 (zwm, zn) 的 内 积 。 上 
式 第 一 项 中 的 六 1 ”_1 DBm 天 (zw zm ) 可 以 看 成 是 关于 6 的 正则 化 项 67 KB 
。 所 以 ，KLR 是 5 的 线性 组 合 ， 其 中 包含 了 kernel 内 积 项 和 kernel regularizer。 这 与 
SVM 是 相似 的 形式 。 


但 值得 一 提 的 是 ，KLR 中 的 Bn 与 SVM 中 的 a 是 有 区 别 的 。SVM 中 的 Qn 大 部 分 为 零 ， 


SV 的 个 数 通 常 是 比较 少 的 ; 而 KLR 中 的 Bi 通常 都 是 非 零 值 。 


总 结 


‘= 


本 节 课 主要 介绍 了 Kernel Logistic Regression。 首 先 把 Soft-Margin SVM 解释 成 
Regularized Model， 建 立 二 者 之 间 的 联系 ， 其 实 Soft-Margin SVM 就 是 一 个 L2- 
regularization， 对 应 着 hinge error messure。 然 后 利用 它们 之 间 的 相似 性 ， 讨 论 了 如 
何 利用 SVM 的 解 来 得 到 Soft Binary Classification。 方 法 是 先 得 到 SVM 的 解 ， 再 在 
logistic regression 中 引入 参数 A 和 B， 和 迭代 训练 ， 得 到 最 佳 解 。 最 后 介绍 了 Kernel 
Logistic Regression， 证 明 L2-regularized logistic regression 中 ， 最 佳 解 w, 一 定 可 以 
写成 z 的 线性 组 合 形式 ， 从 而 可 以 将 kernel 引 入 logistic regression 中 ， 使 用 kernel 思 想 
在 z 空 间 直接 求解 L2-regularized logistic regression 问 题 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 


